ChatGpt ora può fare “tutto” al posto nostro: come funziona e come usare al meglio Agent

OpenAI ha lanciato Agent, “agente di ” in italiano, un nuova funzionalità del chatbot che può svolgere dall’inizio alla fine attività digitali complesse per conto degli utenti. Per L’agente di si basa su un nuovo modello dedicato che integra in maniera più profonda le modalità deep search e Operator, già disponibili per gli utenti a pagamento, con l’interfaccia conversazionale del bot.
Il nuovo agente va istruito con un prompt specifico e poi, dicono da OpenAI, fa tutto da solo: cerca sul Web le informazioni rilevanti e utilizza un computer virtuale per prendere decisioni e operare azioni avanzate su servizi esterni, inclusi e-commerce e piattaforme che richiedono l’autorizzazione.
Come funziona ChatGpt agentOpenAI ha dotato l’agente di vari strumenti per accedere e interagire con il web: un browser visuale che naviga attraverso l'interfaccia grafica; un browser testuale, usato per ricerche più semplici; per gli utenti più esperti, un terminale e l’accesso diretto alle API (l’interfaccia di programmazione).
Tramite la funzione “Connectors” il modello si può collegare ad app come Gmail o Github per ottenere così informazioni più precise per affinare la ricerca. Controllando il browser dell’agente, gli utenti possono inoltre fare login in prima persona su siti esterni.
Con questi strumenti digitali il modello può così raccogliere informazioni tramite API di altri siti, analizzare grandi quantità di testo con il browser testuale, o interagire visivamente con siti web progettati per utenti umani, un po’ come fanno le estensioni per il browser che controllano il mouse in automatico.
Prima di operare azioni a rischio o che richiedono accesso a dati privati, spiegano da OpenAI, l’agente richiede l’approvazione e l’intervento dell’utente: per il resto può raccogliere, organizzare e presentare le informazioni in completa autonomia, generando file specifici come fogli di calcolo, file di testo, presentazioni Powerpoint.
Cosa può fare?OpenAI ha fornito diversi esempi pratici di ciò che si può fare usando la modalità agentica del chatbot. In uno dei video promozionali un ingegnere dell’azienda usa agent per realizzare un itinerario di viaggio a Palm Springs per gli Indian Wells Open di Tennis.
Il sistema ricerca le date dei match, poi si collega al calendario dell’utente (tramite connector) per capire gli impegni già presenti, infine si sposta sul browser per cercare possibili voli da San Francisco e compila una proposta di viaggio.
In un altro esempio, l'agente realizza un foglio di calcolo sulla base dei dati di budget della città di San Francisco; in un altro ancora crea una presentazione sui supporti economici alle aziende tech a Singapore e stila un resoconto sulle disponibilità di uffici. In tutti gli esempi, l’enfasi ricade su come la modalità agentica liberi il tempo dell’utente, che può andare a pranzo o portare a spasso il cane mentre il sistema lavora al posto suo: quando la ricerca e gli eventuali file sono pronti, arriva una notifica sullo smartphone tramite l’app di .
Gli esempi non sono certamente interessanti e utili per capire come funziona agent, tuttavia appaiono particolarmente USA-centrici e destinati a un pubblico di professionisti relativamente ristretto. OpenAI assicura però che agent può prestarsi a un numero molto più ampio di applicazioni rispetto a quelle esposte nei materiali stampa e di marketing.
Il problema delle allucinazioniNon dubitiamo che sia così, ma un problema rimane: che fare con le - ancora ineliminabili - allucinazioni? In uno degli esempi l’ingegnere di suggerisce che le informazioni sul budget raccolte in un file Excel dall’agente siano “corrette al 98%”.
Ma senza ulteriori indicazioni, come facciamo a sapere quanto sia importante quel 2%? Un errore, anche minimo, in una presentazione per un cliente può farci perdere una commessa; in altri casi più stringenti può portare a problemi di compliance e ripercussioni legali.
E se è vero che un umano ci avrebbe messo qualche ora a stilare lo stesso file Excel, e magari avrebbe pure commesso qualche errore, comunque ci vorrà assai più tempo di quello ipotizzato da OpenAI per rivedere quel file, assicurarsi che non ci siano lacune, rivedere e ricercare dati che magari appaiono sbagliati.
Voglio una vita digitalizzataInsomma, la modalità agentica è senz’altro un passo avanti impressionante (e preoccupante) per le potenzialità di , ma la sua accettazione come grande innovazione si basa sul presupposto da cui muove gran parte della narrativa di OpenAI, e cioè che gli errori e le allucinazioni di cui i magnifici modelli e progressivi dell’azienda continuano a soffrire si possano semplicemente ignorare.
L’altro aspetto da non sottovalutare è il livello di digitalizzazione della propria vita necessario perché il sistema funzioni a dovere. Non so voi, ma qui non siamo soliti usare Google Calendar per organizzare roboticamente ogni aspetto della nostra esistenza, incluse le cene con gli amici o le serate fuori a mesi di distanza: in altre parole un agente di viaggio, per noi, non potrebbe funzionare affatto come nella promo d’esempio per banale carenza di dati.
Una lacuna che per essere risolta richiede di rinunciare a ogni spontaneità e serendipità: il vantaggio che se ne ottiene è che un bot a sorgente chiusa di un’azienda americana ci potrà far risparmiare qualche ora per organizzare un viaggio al posto nostro. Nel frattempo potremo annoiarci, scrollare Instagram, o magari lavorare ancora di più.
Il problema della sicurezzaOpenAI ammette inoltre senza troppi giri di parole che questo è il modello potenzialmente più pericoloso rilasciato finora, vista la possibilità di automatizzare azioni condotte sul web con conseguenze dirette sul mondo reale. Per questo, assicura l’azienda, l’allineamento e i limiti di sicurezza sono assai stringenti.
L’agente di non può così svolgere compiti ad alto rischio, non può condurre transazioni finanziarie né operazioni o consulenze in ambito legale. È stato addestrato inoltre per ridurre al minimo il rischio di prompt injection (cioè il “dirottamento” delle direttive di sistema con prompt malevoli) e per rifiutare richieste malevole o potenzialmente pericolose e illegali. Infine ogni passaggio critico, come l’invio di mail, non avviene mai in automatico senza esplicita approvazione da parte dell’utente.
Quando Chagpt agent arriverà in Italia?Gli utenti possono attivare l’agente durante qualsiasi conversazione con il chatbot selezionando la modalità corrispondente dalla liste degli strumenti. Basta poi inviare il proprio prompt e l’agente farà il resto. I risultati non sono immediati: come per la funzione deep search, necessità di un po’ di tempo, talvolta anche ore, a seconda della complessità della richiesta.Il risultato può poi essere affinato ulteriormente con altre richieste.
Per adesso agent è disponibile soltanto in USA, Canada e Regno Unito per gli utenti dei piani Pro, Plus e Team. Il rilascio è cominciato oggi, 18 luglio, e proseguirà nei prossimi giorni. Gli utenti Education ed Enterprise riceveranno l’aggiornamento nelle prossime settimane. Poiché il modello è particolarmente avido di risorse, le richieste saranno limitate: gli utenti Pro avranno a disposizione 400 messaggi al mese, mentre gli altri soltanto 40, con la possibilità di aggiungere richieste comprando crediti ulteriori.
La funzione Operator rimarrà disponibile ancora per qualche tempo, e poi verrà ritirata.In Italia e nel resto d’Europa Agent non è ancora disponibile. L’azienda sta “finalizzando le tempistiche per il lancio”. Data la pervasività del nuovo modello e la possibilità di accedere a moltissime informazioni sensibili, supponiamo che gli avvocati di OpenAI abbiano molto lavoro da fare per garantire l’ottemperanza alle norme europee sulla privacy.
Come verbalizzare le riunioni con ChatGpt agentIn Italia è arrivata però la funzione “record mode”, che si può utilizzare per registrare e trascrivere riunioni, interviste, incontri di brainstorming. La si può attivare tramite un nuovo tasto “rec” posizionato in basso a destra nell’interfaccia del chatbot. Al momento record mode è disponibile però soltanto per gli utenti dei piani a pagamento e solo sull’app per Mac desktop degli utenti dei piani in abbonamento.

Un clic sul tasto avvia la registrazione e apre un pop-up dedicato per mettere in pausa o terminare la sessione, che si potrà inviare così ai server di OpenAI per la trascrizione e il riassunto. Il risultato è un verbale schematico che evidenzia i punti salienti e le cose da fare (se ce ne sono). Il record mode funziona molto bene anche in Italiano e ci sembra, nel suo piccolo, un passo avanti molto più immediatamente pratico della modalità agentica.

Anche qui bisogna fare però attenzione alla privacy. OpenAI dice che le registrazioni vengono utilizzate unicamente per la trascrizione e poi distrutte. Tuttavia, se l’utente ha selezionato l’opt-in per il training del modello tramite le proprie chat (“migliora ChatGpt per tutti” nelle preferenze), allora il resoconto e le ulteriori interazioni con la chat potrebbero essere utilizzate da OpenAI come materiale di training.
La Repubblica